Distribuição de Bases de Dados de Proveniência na Nuvem
نویسندگان
چکیده
Resumo. Dados de proveniência no contexto de workflows científicos são peças fundamentais, pois, por meio deles, os experimentos são passíveis de reprodução e validação. O histórico da execução dos workflows é fundamental também para a gerência da execução de novos workflows uma vez que possibilitam às máquinas de workflow realizar predições sobre desempenho ou custo financeiro de nuvens de computadores. Workflows, com dados em larga escala, executados em nuvens, são com frequência alocados em máquinas virtuais distribuídas fisicamente. As soluções existentes coletam os dados de proveniência de forma distribuída e os armazenam de modo centralizado em único repositório, após o término da execução do workflow. Além da capacidade de reprodução, dados de proveniência permitem um acompanhamento refinado por parte do cientista, quando disponibilizados à medida que são gerados, durante a execução do workflow. Porém, quando os dados de proveniência só estão disponíveis para consulta após a execução do workflow, seu uso fica limitado. Para permitir consultas durante a execução do workflow, o acesso ao banco de dados de proveniência deve estar em sintonia com a máquina de execução distribuída de workflows. Este artigo discute aspectos de projeto de distribuição de dados de proveniência, levando em consideração o esquema de representação de proveniência do W3C, aspectos de processamento distribuído de consultas em nuvens de computadores e considerando a execução distribuída do workflow. A estratégia aqui adotada trouxe melhoria de desempenho para as consultas que submetemos em tempo de execução dos workflows aumentando assim a eficiência dos workflows científicos testados.
منابع مشابه
Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos
Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de p...
متن کاملSLADB: Acordo de Nível de Serviço para Banco de Dados em Nuvem
Computação em nuvem é uma tendência recente de tecnologia cujo objetivo é proporcionar serviços sob demanda com pagamento baseado no uso. Neste ambiente, a qualidade do serviço é uma característica fundamental que deve ser fornecida pelos provedores. Existem muitos modelos para acordo de nível de serviço em nuvem. Entretanto, estes modelos são muito gerais e não abordam características do geren...
متن کاملComparacao de desempenho na indexacao de big geospatial Data em ambiente de nuvem computacional
With the growth of spatial data volume, known as Big Geospatial Data, some tools have been developed to allow the processing of this data in an efficient way, but for this it is fundamental to index the databases. The cloud computing has computational power and several other characteristics that are adherent to the execution of this type of application. This paper presents an analysis of indexi...
متن کاملRecomendações para fragmentação horizontal de bases de dados XML
Resumo. A grande quantidade de dados XML disponíveis na Web e dentro das organizações traz consigo um grande desafio no processamento de consultas sobre ambientes distribuídos. Surge então a necessidade da aplicação de técnicas que permitam um processamento de consultas mais eficiente. Neste sentido, técnicas de fragmentação de dados e processamento paralelo de consultas sobre bases de dados di...
متن کاملGerência de Proveniência Multigranular em Linked Data com a Abordagem ETL4LinkedProv
This paper presents the ETL4LinkedProv approach to manage the collection and publication of provenance metadata with different levels of granularity, as Linked Data. The approach uses ETL workflows and a novel component named Provenance Collector Agent. Its application in a real scenario is presented and the impact of the fine-grained provenance in the ETL workflow runtime and in the number of ...
متن کامل